[レポート]Amazon Nova ReelとAmazon Nova Canvasによるクリエイティブなコンテンツ制作 #AWSReInvent #AIM389

AWS re:Invent 2024

#AWS

#Amazon Nova

せーの

2024.12.05

 Amazon Nova ReelとAmazon Nova Canvasによるクリエイティブなコンテンツ制作こんにちは、せーのです。

AWS Re:Invent2024、今回はAIM389「Creative content generation with Amazon Nova Reel & Amazon Nova Canvas」のレポートをお送りします。
 セッション概要このセッションでは、Amazon BedrockのAmazon Nova VideoとAmazon Nova Image Generatorsの革新的なコンテンツ作成機能をご紹介します。画期的なNova Video Generatorを体験し、比類のない視覚的および時間的な一貫性を備えた、高品質でリアルな最長2分間の動画を作成してみましょう。 複数のシーンにわたる動画をきめ細かく制御できるユニークなストーリーボード機能についても学んでください。 また、最先端の画像生成と編集機能を提供するNova Image Generatorについてもご紹介します。 これらの機能が、お客様に最先端のビジュアルコンテンツ作成ツールを提供する方法を学んでください。 このセッションに参加して、AI駆動の動画および画像生成の未来を解き放ちましょう。
 3行まとめAmazon Nova Foundation Modelは、Bedrock上に構築された次世代のAIコンテンツ生成プラットフォーム
Nova Canvasは直感的なUIで高品質な画像生成・編集が可能で、企業での実用に耐えうる品質を実現
Nova Reelは6秒の動画をベースに、ストーリーボード機能で最大2分までの動画を生成可能
 Amazon Nova Foundation Modelシリーズについて
AWSは今回のre:Inventで、待望の独自生成AI基盤「Nova Foundation Model」シリーズを発表しました。このシリーズは大きく2つのカテゴリに分かれています：
 Understanding Models（理解系モデル）Amazon Nova Micro: 最も軽量なモデル
Amazon Nova Lite: Microより高機能な標準モデル
Amazon Nova Pro: 高度な理解が可能な上位モデル
Amazon Nova Premier: 最高性能を誇るフラグシップモデル
これらのモデルは、テキスト理解や分析、推論などの基本的なAIタスクを担当します。モデルサイズと性能に応じて、用途や予算に合わせた選択が可能です。
 Creative Content Generation Models（生成系モデル）Amazon Nova Canvas: 画像生成に特化したモデル
Amazon Nova Reel: 動画生成に特化したモデル
特筆すべきは以下の点です：
 企業利用に特化した学習データセット一般的なデータセットではなく、商用利用に特化した高品質なデータを使用しているため、ビジネスシーンで即戦力として使える出力が得られます。
 コンテンツの一貫性と品質の重視画像生成においては、同じプロンプトから生成される複数の画像間で高い一貫性を保っています。これは特に企業のブランディングやキャンペーンで複数の関連コンテンツを作成する際に重要な特徴です。
 APIファーストのアプローチNova Foundation Modelは、APIを通じて柔軟に利用できるように設計されています。これにより、既存のワークフローやツールへの統合が容易になっています。
 Amazon Nova Canvasの詳細Nova Canvasは、Nova Foundation Modelシリーズの中でも画像生成に特化したサービスです。
 主な機能 テキストプロンプトによる画像生成従来の画像生成AIと同様、テキストプロンプトからの画像生成が可能です。生成される画像の解像度は標準で1024x1024となっています。
 高度な画像編集機能Inpainting: 画像の特定部分のみを選択して再生成
Outpainting: 既存の画像を拡張して、周囲に新しい要素を追加
スタイル変換: 画像全体のスタイルを保持したまま、特定の要素だけを変更
 Future Capabilities（Coming Soon） Fine-Tuning対応企業独自のデータセットを用いてモデルをFine-Tuningできる機能が提供予定です：
自社商品の特徴をより正確に捉えた画像生成
企業独自のブランドガイドラインに沿った画像スタイル
特定業界に特化した専門的な画像生成
 One-Shot Adaptation APIFine-Tuningほど大規模なデータセットを必要としない、軽量なモデルカスタマイズ機能も計画されています。API一回の呼び出しで、参照画像に基づいたスタイルの適用が可能になります。
 Amazon Nova Reelの詳細
Nova Reelは、Nova Foundation Modelシリーズの中でも特に注目を集めている動画生成AIサービスです。各シーンは最大6秒の動画として生成され、それらをストーリーボードとして組み合わせることで、より長尺の動画制作が可能です。
 Built with Responsible AIAmazon Bedrockの基盤を活用することで、企業での実用に耐えうる堅牢な生成AIの仕組みを実現しています。
 強力なGuardrail機能AWSが培ってきた生成AI技術のベストプラクティスを活用
有害なコンテンツの生成を最小限に抑える堅牢な制御機能
プロンプトレベルでの入力フィルタリング
生成コンテンツの出力時チェック
 透明性と信頼性の確保生成された動画への自動ウォーターマーク付与
AI生成コンテンツの明示によるトレーサビリティ確保
生成コンテンツに対する補償（Indemnity）の提供
コンプライアンスとガバナンスへの対応
 技術仕様各シーン最大6秒
解像度：1024x576（16:9）
フレームレート：24fps
出力フォーマット：MP4
 Coming Soon: Advanced Features 長尺動画対応最大2分（120秒）までの動画生成が可能に
ストーリーボード機能による複数シーンの統合
シーン間の一貫性保持機能
 高解像度対応1080p（1920x1080）対応
より高度な動画編集機能の追加
既存の動画編集ソフトとの連携強化
 人物表現の改善より自然な人物の動きの表現
表情やジェスチャーの改善
人物の一貫性の向上
 Future Roadmap - Amazon Novaの未来セッションの締めくくりとして、Amazon Novaの今後の展開が紹介されました。
 Amazon Nova Speech-to-SpeechNova Foundationモデルに音声機能が加わることで、Alexaで培ってきた自然言語処理と音声処理の技術が、より広範な用途で活用可能になります：
 Alexaで実績のある会話制御数億台のデバイスでの実績に基づく、自然な対話の展開とターンテイキング
多言語での会話経験を活かしたスムーズな言語切り替え
カスタマーサービスの自動化などのビジネスユースケースへの展開
 表現力豊かな音声生成Alexaの「感情豊かな応答」の技術を活用
広告コンテンツやパーソナルアシスタントに適した自然な音声生成
ポッドキャストやオーディオブック向けのプロフェッショナルなナレーター音声の生成
 エンタープライズグレードの言語処理
Alexaの多言語対応で培った、正確な音声理解と生成
Speech-to-Speech翻訳と現地化対応
2025年Q1にはBedrock上でBidirectional StreamingとBatch Processing APIを提供予定
 Amazon Nova Any-to-Anyこれは特に画期的な機能で、異なるモダリティ（形式）間での変換を可能にします：
テキスト、音声、画像、動画の相互変換
各形式の特徴を活かした最適な変換処理
一貫性のある生成処理の実現
 Bedrockプラットフォームならではの強みこれらの新機能がAWS Bedrockプラットフォームに統合されることの意義は極めて大きいと言えます：
セキュアな環境での実行
VPCエンドポイントを通じたプライベートな接続
AWSの強固なセキュリティ基盤の活用
統一されたAPI
異なるモダリティ間の変換も単一のAPIで対応
既存のBedrockのAPIとseamlessな連携
スケーラビリティ
AWSのインフラストラクチャを活用した安定した処理
必要に応じた柔軟なリソース調整
コスト最適化
使用量に応じた従量課金
複数のモダリティを組み合わせた場合でも統一された料金体系
このロードマップからも、AWSが生成AI基盤として、単なるモデルの提供だけでなく、企業の実用に耐えうる包括的なソリューションを目指していることが伺えます。特に、Any-to-Any変換の実現は、新しいユースケースの創出や、既存のワークフローの効率化に大きな可能性を秘めているといえるでしょう。